胡小明丨为电子政务服务的大数据
本文为中国信息协会副会长胡小明在2016中国智慧政府发展年会“政府大数据与数据开放论坛”的主题演讲实录,内容根据录音整理,未经本人审核。
非常感谢大家能够参加今天的会议,我原来认为下午我做第一个发言,首先是帮助大家适当的休息一下,因为刚吃完饭需要消化。但是我看大家的积极性对我也是一个鼓励,所以我也希望能够跟大家做一次交流。
关于政府电子政务服务的大数据,我们聚在这里讨论是因为大数据太热门了。我觉得这里面有风险,希望我们在研究大数据的时候,我们不要被大数据热冲昏头脑。所以应该把这个问题想清楚,哪些是可以解决的,哪些是不能解决的。
平常心对待大数据
第一是要以平常心对待大数据,在宣传热的情况下,我们发现我们更多讲的是大数据的技术、大数据的手段改进。而对大数据的实际应用,仔细来看真正的例子还是少的。我们讲数据挖掘,讲这么多年之后,讲数据挖掘还是啤酒+尿布的案例,这说明什么问题呢?说明在应用领域和技术领域这两者差距还是非常大的。
而现在我们需要从实际当中来考虑这个问题,我觉得大数据有点被惯坏了。目前大家都在说成立大数据机构,申请大数据经费。但是从大数据实际应用来看,我觉得目的并不是很明确。到底解决什么事情,它能不能做呢?还有很多问题。
在我看来,大数据只是一个工具,它永远是我们实现目标的仆人。希望大数据的发展和应用不要走信息资源共享的路。信息资源共享喊了很多年,从国新办的17号文开始到现在已经15年了,但到底有多大的进步?我认为一直没有做好,也没有说出太多东西。为什么会这样呢?我觉得有一个非常重要的原因,就是我们把数据资源共享的能力和效果想的太高了,我们以为它能够解决很多问题,实际上它并不能解决那么多问题。
随着社会数据资源的增加,信息共享手段的增加,政府数据共享能所做的贡献越来越少。并不是所有的信息共享都是有用的,可以说多数的信息共享并不是很方便,而且公开的成本效益并不都是正的。在这种情况下,要求全面的信息共享肯定是失败的,正确的做法应该是仔细挑选,可能十项里面只有一两项是好的,有什么必要全面推进信息共享呢?所以集中精力来做真正有效率的事情,这才是我们该做的。
所以说在大数据方面来讲,我们一定要以目标为中心,以平常心来对待大数据。以目标为中心就是并非所有的大数据都是有用的,可以说大部分的大数据都是没有用的,真正有用的东西是少部分的,必须把有用的挑出来。当想解决什么问题的时候,这时候再谈大数据,我认为是有价值的。当问题还不清楚就想用大数据的时候,我认为这完全是错的,它根本没有用。因为数据资源是不缺的,数据也可以是垃圾。最缺的是你的目标,你到底想干什么,所以现在我们最大的问题是我们想干什么不清楚。
目前我们对大数据概念,大家讲的都是不一致的,讲的都不清楚。对于政府的官员来讲,他认为政府数据很多,只要把数据合起来就是大数据。因此他认为政府的一切数据都是大数据,整合起来就多了。为什么会有这种想法呢?有很多的原因,其中一个原因是挂上大数据就能够申请经费,能够得到重视,能够符合潮流。如果没有挂上大数据,就是小数据的整合。所以这个问题也是一个因素,但是这些问题都不重要,最重要的到底什么能解决问题。
另一个方面来说,我们现在看的大数据,大部分是基本大数据的概念,是从互联网公司来的。互联网公司有了很高的技术,能够利用好大数据。因此这个概念基本上是由互联网巨头决定的,过去也有预测、石油勘探,都是一堆数据,但是都不说是大数据。互联网出来之后创造了一种经济,也就是说一个名词,一个概念的出现是和应用结合起来,应用可能带来有效的东西。它就是来自互联网大数据的概念,而政府大数据的基本概念还是传统的,这两个是不一样的。所以政府大数据整合,并不是我们现在所讲的大数据,而是传统的数据整合、数据处理、数据分析,是传统的技术。所以这两个技术是不一样的,它们的概念不一样。
传感器大数据
然后是传感器大数据,为什么?技术的发展导致出现了非常多的传感器,而这些传感器收集的数据是非常多的,这种数据用在什么地方呢?用于人工智能。比如说无人驾驶汽车以及机器人等等这样的技术,他们也用这个技术。但是这个技术多不多、量大不大,我觉得不是最大。它最重要的特点就是数据处理的过程当中没有人的干预,是自动化的,所以它们属于人工智能这方面的大数据。
当我们在分析这个问题的时候,我们要关注一下当前你想解决什么问题,其实对不同地区是不一样的。比如说互联网和传感器大数据,工业4.0类似这些东西都跟这些有关,对于政府改善服务,它最主要的是整合大数据,这个大数据主要还是在传统的数据范围内,所需要的技术是不一样的。
对于政府来讲,最重要的东西通常是最简单的。如果不简单就不会重要,重要的都是简单的。我们现有的数据改善服务,这种服务全部都是在大数据范围内,只是我们说大数据,从技术来讲都是传统技术的使用和改进。互联网数据也可以来做,但是它并不会在政府工作改进上占据主要的位置,因此对于政府的工作来讲,核心的问题是小数据整合。
互联网大数据改进是专业部门做的,传感器大数据用于工业智能和人工智能改进,建立各种各样的智能系统,它们是有用的。
大数据不适合大决策
下面我再讲一下大数据并不适合于大决策,大家都知道小数据适合大决策,原因是什么呢?当我们的数据量太多的时候,毕竟你关注的范围要窄,你关注的范围窄,你的量才能大,才能深,这么一来你对问题的看法和视角都狭窄。我们处理大决策的问题需要广阔的视角。对于具体的问题来讲,大数据适合于解决小问题。
另外,很多问题是没有办法依靠大数据的,比如说国际形势发生了变化,现在网上经常在讨论说希拉里和川普他们俩谁上台,他们俩上台政策不一样,对世界经济影响也不一样,该怎么处理。像这样的问题能不能用大数据来分析,我觉得是不可能的,绝不可能分析出他们的政策会带来什么样的改变,因为这是未来的事情。
再比如说美国十几年前的9.11事件,出了很多问题,而这些问题对中国经济发展是有利的,为什么?因为把美国搞乱了,中国有很多的机会。这样重大的政策反而不是大数据能够搞出来的,原因是什么呢?当数据量太大的时候,视野不一定狭窄,如果视野宽阔,数据量并不那么多。所以正因为这个原因,我们要想清楚。
高层决策最主要是靠全面信息,而不是狭窄的数据。我谈了大数据的服务问题,因为我现在在深圳,我帮他们来讨论一些问题,他们总觉得政府的数据资源非常多。我要打通,把数据整合,然后就可以分析出来很多东西来支持政府,这是一种基本思想。但是这种基本思想一般来说是不行的,为什么?政府的数据实际上一点也不多,总说政府资源占90%,那些都是三十年前的概念,因为那时候没有互联网。现在互联网巨头不比政府的数据多十倍、百倍、千倍。而且政府的数据主要来自于人工调查,人工调查的效率和机器识别的数据是不一样的。所以政府的数据是很少的,我们可以把它集合起来解决问题,但是并不是需要靠大数据来分析,而是靠转动的数据分析来挖掘政府数据的潜能,所以这个很重要。
在这种情况下,如果政府把所有的数据都整合了,然后等着你去打通,去分析出结果,这样行吗?政府信息资源虽然没有开放,但是没有不透风的墙,政府信息代表的东西都会通过各种各样的渠道传递出去,包括我们的手机、聊天、谈话等等。所以在这种情况下,你想有一个非常重大的发现出来是不容易的。
如果你能够发现这些重大信息,你这些能力如何给政府提供。实际上我们提出的东西对政府的官员来讲是小儿科,是外行。要依赖大数据,政府是不放心的。在这种情况下,把各种各样的数据整合起来,让它变成一个可视化的服务这反而是有效的。一个可视化的服务对政府官员来讲是很受欢迎的,就像我们天天都要看天气预报,一个月有几次台风,可视化的数据能够迅速的让人一眼对整体有一个改观。
人工智能发展的过程当中,也是有一个进程的。在六七十年代,当时人工智能非常火,搞来搞去做不下去了。后来人们做机器,发现做来做去也做不下去了,什么时候开始这轮又起来了,核心是它把人工智能改成了大数据,改成了数据学习。实际上里面包含的信息,比如说机器翻译,以前我也见过几个搞翻译的人,那时候的思想是从造型和理解的角度来翻译,现在发现越来越做不下去了。现在的翻译软件越来越快,一般打出这个字,下个就出来与它同时出现概率最高的字,这样对你加快速度就更容易了。
智能化的城市也和大数据应用紧密的结合起来,它这种应用和决策的应用是不一样的。实际上数据有两种情况,一个是用在人工智能领域,它应用的系统是自动化的,而提出来之后机器自己来用,因为计算机本身你别看它总是数据,但是它一点都不懂信息,它脑子里面只有数据的概念,它碰到数据算概率,没有别的概率。但是人决策不一样,它会把所有的数据拿过来看一遍、想一遍,这两个用途是不一样的。所以说机器使用大数据和人来使用大数据是两种不同的使用方式,你会知道为什么人使用大数据结果是不确定的,机器数据是死的。
当我们在研究大数据的时候,一定要从应用出发,而不能从资源出发。一个数据,它是资源还是垃圾,我们不要认为所有的数据都是资源。因为资源和垃圾它俩没有区别,资源就是垃圾,垃圾就是资源,完全取决于不同的人怎么看,资源和垃圾本身上是一样的,就好像你想删掉就删掉,你删掉的就是垃圾,你不删掉的就是资源,所以垃圾和资源是同一个东西。我们如何区分,它的判断标准就是对人工的帮助。所以这就是要注意的事情,我们不能从资源出发,现在我觉得在全国各地处理推广大数据的时候有一个观点我是非常怀疑的,各地做的顶层设计里面到底是解决什么问题,得先把数据收集过来。
大数据的发展要在应用中成长,而不是在大楼中成长,这是什么大数据呢?实际上很多大数据确实可以解决问题,但还需要长期不断的积累,不断的改进,因此有效的大数据要进行不断的维护和改进。
所以如果没有想清楚做什么,你的大数据组织是非常危险的,会浪费你很多的资源。你搞一堆垃圾,你还想升官,那样肯定不行,因此你不能这么做,你要挑出来有用的东西,在应用中不断改进,也许它所用到的数据,只是几十分之一就可以了。我的数据卖给你,当时我想卖一点钱,他说我不要,我说你为什么不要,他说我要等我的用户,我的用户咨询到哪一个我买哪一个,宁可贵一点我也要,我不要你们企业的数据,他用的是这样的思维方式。
在这样的情况下,我们就需要在大数据当中不断进步,对高层的服务和对基层的服务是不一样的。政府的数据整合最重要的是基层的服务,整合的数据对基层的服务有用,对高层的服务它要了解外体和整体,它并不需要精确的数据。所以我们要把精确的数据送到前线,什么是前线呢?直接为公众服务的,然后把整体的趋势可视化的图形送给领导,这样领导一眼就知道大概的趋势,这样才会更有效。
我们要以解决问题为中心,真正能解决问题的东西不见得数据量就大。我举一个例子,美国有一家公司花钱花的太多,每一个部门都超预算,非常头疼,于是派了一位领导来解决这个问题。一开始这位领导把帐单都打出来看看有什么不合适,后来计算机打出来的那么多份材料他根本不知道怎么才看得明白,索性就不看了,他就决定在公司来个排名,哪个部门浪费最多就排第一,哪个部门每月超支最多的就排第一,然后这些结果每个月公示一次,各个部门都担心排名靠前,于是这个公司很快就把花钱太多的问题解决了。解决这个问题并不是靠大数据分析来解决的,而是靠排名表解决的,所以说很多问题要以解决问题为中心,大数据并不是唯一的工具。大数据被政府惯坏了,只会花钱不会干活了。所以我们要先整合好小数据,数据的应用应当始于足下,而不要让大数据误导。
第二届(2016)中国“互联网+政务”优秀实践案例50强(附获奖名单)